Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada
نویسندگان
چکیده
Um dos problemas da extração de dados na web é a remoção de ruídos existentes nas páginas. Esta tarefa busca identi car todos os elementos não informativos em meio ao conteúdo, como por exemplo cabeçalhos, menus ou propagandas. A presença de ruídos pode prejudicar seriamente o desempenho de motores de busca e tarefas de mineração de dados na web. Este trabalho aborda o problema da descoberta de ruídos em páginas da web oculta, a parte da web que é acessível apenas através do preenchimento de formulários. No processamento da web oculta, a extração de dados geralmente é precedida por uma etapa de inserção de dados, na qual os formulários que dão acesso às páginas ocultas são automaticamente ou semi-automaticamente preenchidos. Durante esta fase, são coletados dados do domínio em questão, como os rótulos e valores dos campos. A proposta deste trabalho é agregar este tipo de dados com informações sintáticas dos elementos que compõem a página. É mostrado empiricamente que esta combinação atinge resultados melhores que uma abordagem baseada apenas em informações sintáticas.
منابع مشابه
Uma Abordagem para Armazenamento de Dados Semi-Estruturados em Bancos de Dados Relacionais
This paper presents an approach to storing semistructured data in relational databases. We focus on semistructured data as extracted from Web pages by a tool called DEByE (Data Extraction By Example), and organized according to its data model, the DEByE Object Model (DEByE-OM). The approach presented here consists in representing the structure of objects extracted by DEByE by a relational schem...
متن کاملDefinição e Avaliação de uma Abordagem para Extração e Catalogação de Conteúdo Obtido da Deep Web
This paper presents an approach for the extraction and labeling of data presented in Deep Web databases. Such a data are extracted from a set of HTML pages generated as the result of a query posed on the hidden database through a Web form. Data labeling (and persistence) aims at providing further structured queries over this hidden content. Preliminary experiments had demonstrated that the prop...
متن کاملUm método para elicitação e Modelagem de Requisitos Baseado em Objetivos
Este trabalho propõe uma integração da abordagem CREWS Lecritoire baseado em cenários com a abordagem de casos de usos descrita por Regnell et al e o Método GBRAM baseado em objetivos. Dessa forma são adicionados ao trabalho de Regnell et al a noção de pedaço de requerimento (RC), as estratégias de descoberta do objetivo através dos relacionamentos AND, OR e de refinamento entre RCs, além de e...
متن کاملRanqueamento Supervisionado de Autores em Redes de Colaboração Científica
The problem of ranking in collaboration networks consists in determining an ordering of researchers according to their in uence or prestige using network metrics. This paper proposes a supervised machine learning approach that combines four metrics to rank nodes. Experiments using a database of Brazilian researchers in Computer Science and taking as reference the Research Productivity scholarsh...
متن کاملFiltragem Wavelet de Sinais Cardíacos através de Algoritmos Adaptativos
Resumo: Neste trabalho o algoritmo de Azzalini, Farge e Schneider, utilizado em análise de imagens, é modificado, produzindo uma versão adaptativa e uma recursiva para a filtragem de sinais cardíacos. Através destes algoritmos um limiar de corte é obtido baseado na variância do ruído e a série wavelet do sinal analisado é então truncada. Wavelets ortonormais de Daubechies são consideradas. Para...
متن کامل